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原文 版 本 3.5.5 

翻译 : 王 娜 

校对 : C6H5NO2 

Pentaho 中 文 讨 论 组 QQ 群 : 12635055 


论坛 : http://bbs.wekacn.org/ 


1 启动 WEKA 


WEKA 中 新 的 菜单 驱动 的 GUI 继承 了 老 的 GUI 选择 器 (类 weka.gui.GUIChooser) 的 功能 。 
它 的 MDI ( 多 文档 界面 ) 外 观 ， 让 所 有 打开 的 窗口 更 加 明了 。 


Eix 


Program Applications Tools "Visualization Help 


WEKA 


The University 
of Waikato 





这 个 菜单 包括 六 个 部 分 。 


1. Program 


> Weka 3.5.4 


Applicatia 








。 LogWindow 打开 一 个 日 志 BO, jo 输出 到 stdout 或 stderr MAB. f£ MS 
Windows 那样 的 环境 中 ，WEKA 不 是 从 一 个 终端 启动 ， 这 个 就 比较 有 用 。 
e Exit 关闭 WEKA。 


2. Applications 列 出 WEKA 中 主要 的 应 用 程序 。 


Experimenter 


KnowledgeFlow 
SimplecCLI 











e Explorer 使 用 WEKA 探索 数据 的 环境 。 (本 文档 的 其 它 部 分 将 详细 介绍 这 个 环境 ) 

。 Experimenter 运行 算法 试验 、 管 理 算法 方案 之 间 的 统计 检验 的 环境 。 

e KnowledgeFlow 这 个 环境 本 质 上 和 Explorer 所 支持 的 功能 是 一 样 的 ， 但 是 它 有 一 个 可 以 
拖 放 的 界面 。 它 有 一 个 优势 Me 支持 增 量 学 习 (incremental learning) 。 


e SimpleCLI 提供 了 一 个 简单 的 命令 行 界 面 ， 从 而 可 以 在 没有 自 带 命令 行 的 操作 系统 中 直 
接 执 行 WEKA AS. 


3. Tools 其 他 有 用 的 应 用 程序 。 





1s | Tools visualization | 


ArffViewer 


Sqlviewer 
EnsembleLibrary 










e ArffViewer 一 个 MDI 应 用 程序 ， 使 用 电子 表格 的 形式 来 查看 ARFF 文件 。 
。 SqlViewer 一 个 SQL 工作 表 ， 用 来 通过 JDBC 查询 数据 库 。 
e EnsembleLibrary 生成 集成 式 选 择 (Ensemble Selection) [5] 所 需 设 置 的 界面 。 


4. Visualization WEKA 中 数据 可 视 化 的 方法 。 








Minimize 
Restore 
KnowledgeFiow 
Explorer 
SqMiewer 
ArfiViewer 












。 Plot 作出 数据 集 的 二 维 散 点 图 。 

。 ROC 显示 预先 保存 的 ROC 曲线 。 

e TreeVisualizer 显示 一 个 有 向 图 ， 例 如 一 个 决策 树 。 

e GraphVisualizer 显示 XML, BIF 或 DOT 格式 的 图 片 ， 例 如 贝 叶 斯 网 络 (Bayesian 
network) 。 

。 BoundaryVisualizer 人 允许 在 二 维 空间 中 对 分 类 器 的 决策 边界 进行 可 视 化 。 


5. Windows 所 有 已 打开 的 窗口 都 列 在 这 里 。 





ion | Help | 

| Weka homepage 
Online documentation 
HOWTOs, code snippets, etc. 
Weka on SourceForge 
Systemlnfo 

| about 




















e Minimize 最 小 化 所 有 当前 的 窗口 。 
e Restore 还 原 所 有 最 小 化 过 的 窗口 。 


6. Help WEKA 的 在 线 资源 可 以 从 这 里 找到 。 





Visualization Help 
Plot 

ROC 
TreeVisualizer 
GraphVisualizer 
BoundaryVisuakzer 














Weka homepage 打开 一 个 浏览 器 窗口 ， 显 示 WEKA 的 主页 。 

Online documentation 链接 到 WekaDoc 维基 文档 [4]。 

HOWTOs, code snippets, etc. 通用 的 WekaWiki [3]， 包 括 大 量 的 例子 ， 以 及 开发 和 使 用 
WEKA 的 基本 知识 (HOWTO) 。 

Weka on Sourceforge WEKA 项 目 在 Sourceforge.net 的 主页 。 

Systemlnfo 列 出 一 些 关 于 Java/WEKA 环境 的 信息 ， 例 如 CLASSPATH。 

About 不 光彩 的 About 窗口 。 


如 果 从 终端 启动 WEKA， 会 有 一 些 文字 在 终端 窗口 中 出 现 。 这 些 文字 是 可 以 忽略 的 ， 除非 某 
些 东 西 出 错 了 一 一 这 时 它 可 以 帮助 找到 错误 的 原因 。 (LogWindow 也 可 以 显示 那 些 信息 。) 


这 份 文档 也 可 以 从 在 线 的 WekaDoc Wiki [4] 中 找到 ， 它 将 集中 阐述 如 何 使 用 Explorer， 而 
不 会 逐个 解释 WEKA 中 的 数据 预 处 理工 具 和 学 习 算 法 。 要 获得 关于 各 种 筑 选 器 (filler) 和 学 
习 算 法 的 更 多 信息 ， 可 参考 Data Mining [2] 一 书 。 


2 WEKA Explorer 


一 ke 
2.1 标签 页 
在 窗口 的 项 部， 标题 栏 下 是 一 排 标签 。 当 Explorer 首次 和 启动 时 ， 只 有 第 一 个 标签 页 是 活动 


预 处 理 )。 

所 有 的 标签 页 如 下 所 示 : 

1. Preprocess. 选择 和 修改 要 处 理 的 数据 。 

2. Classify. 训练 和 测试 关于 分 类 或 回 轨 的 学 习 方 案 。 
3. Cluster. 从 数据 中 学 习 聚 类 。 

4. Associate. 从 数据 中 学 习 关联 规则 。 

5. Select attributes. 选择 数据 中 最 相关 的 属性 。 


6. Visualize. 查看 数据 的 交互 式 二 维 图 像 。 这 些 标签 被 激活 后 ， 点 击 它们 可 以 在 不 同 的 标签 页 
面 上 进行 切换 ， 而 每 一 个 页 面 上 可 以 执行 对 应 的 操作 。 不 管 位 于 哪个 页 面 ， 窗 口 的 底部 区 域 
(包括 状态 栏 、log 按钮 和 Weka 乌 ) 仍然 可 见 。 


2.2 状态 栏 


状态 (Status) 栏 出 现在 窗口 的 最 底部 。 它 显示 一 些 信息 让 你 知道 正在 做 什么 。 例 如 ， 如 果 
Explorer 正 忙 于 装载 一 个 文件 ， 状 态 栏 就 会 有 通知 。 
提示 一 在 状态 栏 中 的 任意 位 置 右 击 鼠标 将 会 出 现 一 个 小 菜单 。 这 个 菜单 给 了 你 两 个 选 项 : 


N 


1. Memory Information. 在 log 栏 中 显示 WEKA 可 用 的 内 存量 。 


2. Run garbage collector. 强制 运行 Java 垃圾 回收 器 ， 搜 索 不 再 需要 的 内 存 空 间 并 将 之 释 
放 ， 从 而 可 为 新 任务 分 配 更 多 的 内 存 。 注 意 即使 不 强制 运行 ， 垃 圾 回收 也 是 一 直 作为 后 台 任 
务 在 运行 的 。 


2.3 Log 按钮 


点 击 这 个 按钮 ， 会 出 现 一 个 单独 的 窗口 ， 包 含 一 个 可 拖 动 的 文本 区 域 。 文 本 的 每 一 行 被 加 了 
一 个 时 间 戳 ， 显 示 了 它 进 入 日 志 (log) 的 时 间 ， 一 旦 在 WEKA 中 执行 某 种 操作 时 ， 该 日 志 就 
会 记录 发 生 了 什么 。 对 于 使 用 命令 行 或 者 SimpleCLI 的 人 ， 日 志 也 将 完整 地 记 xXx, X 
类 ， 特 征 提取 等 任务 的 设置 字符 ， 使 得 它们 可 被 复制 /粘贴 到 其 它 地 方 。 但 关 于 数据 集 和 
class 属性 1 的 选项 仍然 要 由 用 户 给 出 (例如 ， 分 类 器 (classifier) 的 -t， 或 者 筛选 器 的 -i 和 


-0) 


2.4 WEKA 状态 图 标 


状态 栏 的 右边 是 WEKA 状态 图 标 。 当 不 运行 任何 进程 时 ，WEKA 乌 会 坐 下 并 打 一 个 小 且 。x 
符号 旁 的 数字 显示 了 正 运 行 的 并 发 进程 的 数量 。 当 系统 空闲 时 ， 它 是 需 ， 而 当 进 程 HRS 
长 时 ， 它 也 会 增长 。 任 意 进程 启动 后 ， 小 乌 会 站 起 来 并 到 多 活动。 如果 它 仍然 是 站 着 的 ， 但 
是 很 长 时 间 内 不 动 ， 那 么 它 生病 了 : 某 个 地 方 出 错 了 ! 在 这 种 情况 下 ， 应 该 重 新 启动 WEKA 
Explorer。 





1 在 分 类 或 回 及 任务 中 ，class 属性 是 默认 的 目标 变量 。 注 意 这 与 下 文中 的 分 类 型 属性 不 


是 一 个 概念 一 译 注 。 
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Select attributes | Visualize 





ownne | [eoero | we j| tm | 
Filter 
| Choose [None | Apply 


Current relation Selected attribute 


Relation: None Name: None Type: 
Instances: None Attributes: None Missing: None Distinct: None Unique: 

















Attributes 
All || None || men pattern 


-| Visualize All 














| Rm | 


Welcome to the Weka Explorer 





3 预 处 理 
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3.1 载 入 数据 


预 处 理 页 顶部 的 前 4 个 按钮 用 来 把 数据 裁 人 WEKA : 
1. Open file.… 打开 一 个 对 话 框 ， 人 允许 你 浏览 本 地 文件 系统 上 的 数据 文件 。 
2. Open URL.... 请 求 一 个 存 有 数据 的 URL 地 址 。 


3. Open DB.… 从 数据 库 中 读 取 数据 ( 注意 ， 要 使 之 可 FH, 可 能 需 要 编辑 
weka/experiment/ DatabaseUtils.props 中 的 文件 ) 


4. Generate.... 从 一 些 数据 生成 器 (DataGenerators) 中 生成 人 造 数据 。 


使 用 Open file... 按钮 可 以 读 取 各 种 格式 的 文件 : WEKA 的 ARFF 格式 ，CSV 格式 ， C4.5 格 
式 ， 或 者 序列 化 的 实例 2 格式 。ARFF 文件 通常 扩展 名 是 .arff，CSYV 文件 扩展 名 是 .csv，C4.5 
文件 扩展 名 是 .data 和 .names ， 序 列 化 的 实例 对 象 扩展 名 为 .bsi。 


3.2 SB X 
载 入 数据 后 ， 预 处 理 面板 就 会 显示 各 种 信息 。Current relation 一 栏 ( current relation 指 目 
前 装载 的 数据 ， 可 理解 为 数据 库 术 语 中 单独 的 关系 表 ) 有 3 个 条 目 : 


1. Relation. 关系 的 名 称 ， 在 它 装 载 自 的 文件 中 给 出 。 使 用 往 选 器 CRICK) 将 修改 关系 
的 名 称 。 


2. Instances. 数据 中 的 实例 (或 称 数据 点 /记录 ) 的 个 数 。 
3. Attributes. 数据 中 的 属性 (或 称 特征 ) 的 个 数 。 


2 只 有 本 段 文字 中 的 实例 是 JAVA 语言 中 实例 的 概念 ; 而 后 文中 的 实例 都 将 指数 据 集中 
的 记录 一 译注 。 


3.3 处 理 属性 

在 Current relation 一 栏 下 是 Attributes (Œl) 栏 。 有 四 个 按钮 ， 其 下 是 当前 关系 中 的 属性 
列表 。 该 列表 有 3 列 : 

1. No.. 一 个 数字 ， 用 来 标识 数据 文件 中 指定 的 各 属性 的 顺序 。 

2. 选择 框 . 允许 勾 选 关系 中 呈现 的 各 属性 。 

3. Name. 数据 文件 中 声明 的 各 属性 的 名 称 。 


当 点 击 属性 列表 中 的 不 同行 时 ， 右 边 Selected attribute 一 栏 的 内 容 随 之 改变 。 这 一 栏 给 出 了 
列表 中 当前 高 亮 显示 的 属性 的 一 些 描 述 : 

1. Name. 属性 的 名 称 ， 和 属性 列表 中 给 出 的 相同 。 

2. Type. 属性 的 类 型 ， 最 常见 的 是 分 类 型 (Nominal) 和 数值 型 (Numeric) 。 

3. Missing. 数据 中 该 属性 缺失 (或 者 未 指定 ) 的 实例 的 数量 (及 百分比 )。 

4. Distinct. 数据 中 该 属性 包含 的 不 同 值 的 数目 。 

5. Unique. 唯一 地 拥有 某 值 的 实例 的 数目 (及 百分比 ) ， 这 些 实例 每 个 的 取 值 都 和 别 的 不 一 
样 。 

在 这 些 统计 量 的 下 面 是 一 个 列表 ， 根 据 属性 的 不 同类 型 ， 它 显示 了 关于 这 个 属性 中 储存 NE 
的 更 多 信息 。 如 果 属 性 是 分 类 型 的 ， 列 表 将 包含 该 属性 的 每 个 可 能 值 以 及 取 那 个 值 的 实例 的 
数目 。 如 果 属 性 是 数值 型 的 ， 列 表 将 给 出 四 个 统计 量 来 描述 数据 取 值 的 分 布 一 最 小 值 、 最 大 
值 、 平 均值 和 标准 差 。 在 这 些 统计 量 的 下 方 ， 有 一 个 彩色 的 直方 图 ， 根 据 直 方 图 上 方 一 栏 所 
选择 的 class 属性 来 着 色 。( 在 点 击 时 ， 该 栏 将 显示 一 个 可 供 选择 的 下 拉 列 表 。) 注意 仅 有 分 类 
型 的 class 属性 才 会 让 直方 图 出 现 彩 色 。 最 后 ， 若 点 击 Visualize All 按钮 ， 将 在 一 个 单独 的 
窗口 中 显示 数据 集中 所 有 属性 的 直方 图 。 


回 到 属性 列表 ， 开 始 时 所 有 的 选择 框 都 是 没有 被 勾 选 的 。 可 通过 逐个 点 击 来 勾 选 /取消 。 以 上 
的 4 个 按钮 也 可 用 于 改变 选择 : 


1. All. 所 有 选择 框 都 被 勾 选 。 
2. None. 所 有 选择 框 被 取消 GRUB S) 。 
3. Invert. 已 勾 选 的 选择 框 都 被 取消 ， 反 之 亦 然 。 


4. Pattern. 让 用 户 基于 Perl 5 正则 表达 式 来 选择 属性 。 例 如 ， 用 * id 选择 所 有 名 称 以 _id 结 
束 的 属性 。 


选中 了 想 要 的 属性 后 ， 可 通过 点 击 属性 列表 下 的 Remove 按钮 删除 他 们 。 注 意 可 通 过 点 击 位 
于 Preprocess 面板 的 右上 角 的 Edit 按钮 旁 的 Undo 按钮 来 取消 操作 。 


3.4 使 用 筛选 器 
在 预 处 理 价 段 ， 可 以 定义 第 选 器 来 以 各 种 方式 对 数据 进行 变换 。Fitter 一 栏 用 于 对 各 


种 第 选 器 进行 必要 的 设置 。Filter 一 栏 的 左边 是 一 个 Choose 按钮 。 点 击 这 个 按钮 就 可 选择 
WEKA 中 的 某 个 筛选 器 。 选 定 一 个 第 选 器 后 ， 它 的 名 字 和 选项 会 显示 在 Choose 按 钮 旁边 的 
文本 框 中 。 用 鼠标 左 键 点 击 这 个 框 ， 将 出 现 一 个 GenericObjectEditor (通用 对 象 编辑 器 ) 对 
话 框 。 用 鼻 标 右键 (或 Altt+Shift+ 左 键 ) 点 击 将 出 现 一 个 菜单 ， 你 可 从 中 选择 ， 要 么 在 
GenericObjectEditor 对 话 框 中 显示 相关 属性 ， 要 么 将 当前 的 设置 字符 复制 到 剪贴 板 。 

* Weka 3.5.4 - Explorer 

Program Applications Tools Visualization Windows Help 

[ ] Explorer 


Preprocess | Classify | Cluster | Associate | Select attributes | Visualize 


Open file... Open URL... Open DB... Generate... 





| weka —| Aw 
Tia Dai " Selected attribute 
Filter 
D $ Name: outlook Type: Nominal 
MultiFilter Missing: 0 (0%) Distinct: 3 Unique: 0 (0%) 
è% C supemsed Label — 
9 C3 unsupervised — ane z zou 


e c attr bute | 一 [overcast 
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T | mA 
[3 AddCluster 

[3 AddExpression 
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D AddNoise 

AddValues | Class: play (Nom) 
Center 





ChangeDateF ormat 
ClassAssigner 
ClusterMembership 


Copy 
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Discretize 
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FirstOrder 


| Filter... Remove filter 











GenericObjectEditor 对 话 框 


GenericObjectEditor 对 话 框 可 以 用 来 配置 一 个 筛选 器 。 同 样 的 对 话 框 也 用 于 配置 其 他 对 象 ， 
例如 分 类 器 (classifier) 和 聚 类 器 (clusterers) ( 见 下 文 )。 窗 口中 的 字段 反映 了 可 用 的 选 
项 。 点 击 它们 中 间 的 一 个 便 可 改变 filter 的 设置 。 例 如 ， 某 项 设置 可 能 是 一 串 文本 字符 ， 这 时 
将 字符 串 输 入 相应 的 文本 框 中 即 可 。 或 者 它 可 能 会 给 出 一 个 下 拉 框 ， 列 出 可 供 选择 的 几 个 状 


态 。 也 可 能 是 其 他 一 些 操作 ， 根 据 所 需 的 信息 而 有 所 区 别 。 如 果 把 将 鼠标 指 针 停留 在 某 个 字 
及 上， 会 出 现 一 个 小 提示 来 给 出 相应 选项 的 信息 。 而 有 关 该 算 选 器 和 它 的 选项 的 更 多 信息 可 
通过 点 击 GenericObjectEditor 窗口 顶部 About 面板 中 的 More 按 钮 来 获得 。 


除了 More 按钮 ， 某 些 对 象 也 会 在 关于 栏 中 显示 一 些 有 关 其 功能 的 简短 描述 。 点 击 More iE 
钮 ， 会 出 现 一 个 窗口 来 描述 了 不 同 的 选项 分 别 起 什么 作用 。 有 的 还 另外 一 个 Capabilities 按 
钮 ， 它 能 列 出 该 对 象 可 处 理 的 属性 和 class 属性 的 类 型 。 


GenericObjectEditor 对 话 框 的 底部 有 4 个 按钮 。 前 两 个 Open... 和 Save... 允许 存储 对 该 对 象 
的 配置 ， 以 各 将 来 之 用 。Cancel 按钮 用 于 直接 退出 ， 任 何 已 作出 的 改变 都 将 被 忽略 。 当 前 选 
择 的 对 象 和 设置 伟人 满意 后 ， 点 击 OK 返回 到 主 Explorer 窗口 。 


应 用 筛选 器 


选择 并 配置 好 一 个 筛选 器 后 ， 就 可 通过 点 击 Preprocess 面板 的 Filter 拦 右边 的 Apply 按钮 将 
之 应 用 于 数据 集 上 。 然 后 Preprocess 面板 将 显示 转换 过 的 数据 。 可 点 击 Undo 按钮 取消 改 
变 。 你 也 可 使 用 Edit... 按钮 在 一 个 数据 集 编 辑 器 中 手动 修改 你 的 数 据 。 最 后 ， 点 击 
Preprocess 面板 右上 角 的 Save... 按钮 将 用 同样 的 格式 保存 当前 的 关系 ， 以 各 将 来 使 用 。 


注意 : 一 些 算 选 器 会 依据 是 否 设置 了 class 属性 来 做 出 不 同 的 动作 。 《点 击 直方 图 上 方 那 一 
栏 时 ， 会 出 现 一 个 可 供 选 择 的 下 拉 列 表 。) 特别 的 ， supervised filters (监督 式 筛选 器 ) 
需要 设置 一 个 class 属性 ， 而 某 些 unsupervised attribute filters (JE EE 式 属性 筛选 器 ) 
将 忽略 class 属性 。 注 意 也 可 以 将 Class 设 成 None， 这 时 没有 设置 class 属性 。 





3 筛选 器 的 英文 原文 是 filter， 与 数据 库 术 语 中 的 筛选 有 关 。 但 是 WEKA 中 的 filter 不 仅 
能 提供 筛选 功能 ， 还 酒 盖 了 其 他 各 种 数据 变换 。 一 译注 。 





WEKA 3.5.5 用 户 指 南 


上 Prepiucesss 
Classifier 


(* Cross-validation Folds 10 
© Percentage split % 





More options... -— 
wmm» — — 
Start Stop 


Result list (right-click for options) 


4 分 类 


Classifier output 





Correctly Classified Instances 
Incorrectly Classifiec Instances 
Kappa statistic 

Mean absolute error 

Root mean squared errcr 
Relative absolute errce 

Root relative squared error 
Total Number of Inotarcco 


=== Detailed Accuracy By Class === 
TP Rate FP Rate Precision Recall 
0.556 0.6 0.625 0.556 


0.4 0.444 0.333 0.4 


Confusion Matrix --- 








7 
了 
-0. 0426 
0.4167 
0.5984 
87.5 5 
121.2987 & 
14 


F-Measure 
0.588 
0.364 


ROC Area Class 
0.633 yes 
0.633 no 
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4.1 选择 分 类 如 
在 classify 页 面 的 顶部 是 Classifier 栏 。 这 一 栏 中 有 一 个 文本 框 ， 给 出 了 分 类 器 的 名 


称 和 它 的 选项 。 左 键 点 击 文本 框 会 打开 一 个 GenericObjectEditor， 可 以 像 配置 第 选 器 那样 Bü 
置 当 前 的 分 类 器 。 右 键 〈 或 Alt+Shift+ 左 键 ) 点 击 也 可 以 复制 设置 字符 到 剪贴 板 ， 或 者 在 
GenericObjectEditor 中 显示 相关 属性 。Choose 按钮 用 来 选择 WEKA 中 可 用 的 分 类 器 。 


4.2 测试 选项 

应 用 选 定 的 分 类 器 后 得 到 的 结果 会 根据 Test Option 一 栏 中 的 选择 来 进行 测试 。 共 有 四 种 测试 
模式 : 

1. Using training set. 根据 分 类 器 在 用 来 训练 的 实例 上 的 预测 效果 来 评价 它 。 


2. Supplied test set. 从 文件 载 入 的 一 组 实例 ， 根 据 分 类 器 在 这 组 实例 上 的 预测 效 果 来 评价 
它 。 点 击 Set... 按钮 将 打开 一 个 对 话 框 来 选择 用 来 测试 的 文件 。 


3. Cross-validation. 使 用 交叉 验证 来 评价 分 类 器 ， 所 用 的 折 数 填 在 Folds 文本 框 中 。 


4. Percentage split. 从 数据 集中 按 一 定 百分比 取出 部 分 数据 放 在 一 边 作 测试 用 ， 根 据 分 类 器 
这 些 实例 上 预测 效果 来 评价 它 。 取 出 的 数据 量 由 % 一 栏 中 的 值 决 定 。 注意 : 不 管 使 用 哪 种 测 
试 方法 ， 得 到 的 模型 总 是 从 所 有 训练 数据 中 构建 的 。 点 击 More 


options 按钮 可 以 设置 更 多 的 测试 选项 : 


1. Output model. 输出 基于 整个 训练 集 的 分 类 模型 ， 从 而 模型 可 以 被 查看 ， 可 视 化 等 。 该 选 
项 默认 诗 选 中 的 。 


2. Output per-class stats. 输出 每 个 class 的 准确 度 /反馈 率 (precision/recall) 和 正确 /错误 
(true/false) 的 统计 量 。 该 选项 也 是 默认 选中 的 


3. Output evaluation measures. 输出 炳 估计 度量 。 该 选项 默认 没有 选中 。 
4. Output confusion matrix. 输出 分 类 器 预测 结果 的 混淆 矩阵 。 该 选项 默认 选中 。 
5. Store predictions for visualization. 记录 分 类 器 的 预测 结果 使 得 它们 能 被 可 视 化 表示 。 


6. Output predictions. 输出 测试 数据 的 预测 结果 。 注 意 在 交叉 验证 时 ， 实 例 的 编 号 不 代表 它 
在 数据 集中 的 位 置 。 


7. Cost-sensitive evaluation. 误差 将 根据 一 个 价值 矩阵 来 估计 。Set... 按钮 用 来 指定 价值 矩 
阵 。 


8. Random seed for xval / % Split. 指定 一 个 随即 种 子 ， 当 出 于 评价 的 目的 需要 分 割 数 据 时 ， 
它 用 来 随机 化 数据 。 





4 WEKA 中 的 分 类 和 回 为 都 放 入 了 classify 页 面 中 ， 相 应 的 工具 都 叫做 分 类 器 
(classifier) 。 参 考 4.3 节 。 





4.3 Class 属性 


WEKA 中 的 分 类 器 被 设计 成 经 过 训练 后 可 以 预测 一 个 class 属性 ， 也 就 是 预测 的 目标 。 有 的 
分 类 器 只 可 用 来 学 习 分 类 型 的 class 属性 ; 有 的 则 只 可 用 来 学 习 数值 型 的 class 属性 (Ea 
题 ) ; 还 有 的 两 者 都 可 以 学 习 。 


默认 的 ， 数 据 集中 的 最 后 一 个 属性 被 看 作 class 属性 。 如 果 想 训练 一 个 分 类 器 ， 让 它 预测 一 
个 不 同 的 属性 ， 点 击 Test options 栏 下 方 的 那 一 栏 ， 会 出 现 一 个 属性 的 下 拉 列 表 以 供 选 择 。 


4.4 训练 分 类 部 


分 类 器 ， 测 试 选项 和 class 属性 都 设置 好 后 ， 点 击 Start 按钮 就 可 以 开始 学 习 过 程 。 
分 类 器 忙于 训练 时 ， 下 方 的 小 乌 会 动 来 动 去 。 可 以 通过 点 击 Stop 按钮 ， 在 任意 时 刻 停止 训练 
过 程 。 


训练 完成 后 ， 会 发 生 几 件 事 。 右 边 的 Classifier output 区 域 会 被 填充 一 些 文本 ， 描 述 训 练 和 
测试 的 结果 。 在 Result list 栏 中 会 出 现 一 个 新 的 条 目 。 接 下 来 我 们 会 观察 这 个 结果 列表 ， 但 
我 们 先 来 研究 输出 的 文本 。 


4.5 分 类 器 输出 文本 


Classifier output 区 域 的 文本 有 一 个 滚动 条 以 便 浏览 结果 。 按 住 Alt Shift 键 ， 在 这 个 区 域 点 
击 鼠 标 左 键 ， 会 出 现 一 个 对 话 框 ， 让 你 用 各 种 格式 (目前 可 用 JPEG 和 EPS) 保存 输出 的 结 
果 。 当 然 ， 可 以 通过 放大 Explorer 窗口 来 获得 更 大 的 显示 区 域 。 输 出 结果 可 分 为 几 个 部 分 : 


1. Run information. 给 出 了 学 习 算 法 各 选项 的 一 个 列表 。 包 括 了 学 习 过 程 中 涉及 到 的 关系 名 
称 ， 属 性 ， 实 例 和 测试 模式 。 


2. Classifier model (full training set). 用 文本 表示 的 基于 整个 训练 集 的 分 类 模 型 。 

所 选 测试 模式 的 结果 可 以 分 解 为 以 下 几 个 部 分 : 

3. Summary. 一 列 统计 量 ， 描 述 了 在 指定 测试 模式 下 ， 分 类 器 预测 class 属性 的 准 TARE. 
4. Detailed Accuracy By Class. 更 详细 地 给 出 了 关于 每 一 类 的 预测 准确 度 的 描 述 。 


5. Confusion Matrix. 给 出 了 预测 结果 中 每 个 类 的 实例 数 。 其 中 和 矩阵 的 行 是 实际 的 类 ， 和 矩阵 的 
列 是 预测 得 到 的 类 ， 和 矩阵 元 素 就 是 相应 测试 样本 的 个 数 。 


4.6 结果 列表 


在 训练 了 若干 分 类 器 之 后 ， 结 果 列 表 中 也 就 包含 了 若干 个 条 目 。 左 键 点 击 这 些 条 目 可 以 在 生 
成 的 结果 之 间 进 行 切换 浏览 。 右 键 点 击 某 个 条 目 则 会 弹出 一 个 菜单 ， 包 括 如 下 的 选 项 : 


1. View in main window. 在 主 窗口 中 显示 输出 该 结果 (就 象 左 击 该 条 目 一 样 ) 。 

2. View in separate window. 打开 一 个 独立 的 新 窗口 来 显示 结果 。 

3. Save result buffer. 弹出 一 个 对 话 框 ， 使 得 输出 结果 的 文本 可 以 保存 成 一 个 文本 文件 。 

4. Load model. 从 一 个 二 进 制 文件 中 载 入 以 前 训练 得 到 的 模型 对 象 。 

5. Save model. 把 模型 对 象 保存 到 一 个 二 进 制 文件 中 。 对 象 是 以 Java 序列 化 的 形式 保存 的 。 
6. Re-evaluate model on current test set. 通过 Supplied test set 选项 下 的 Set 按钮 指定 一 个 
数据 集 ， 已 建立 的 分 类 模型 将 在 这 个 数据 集 上 测试 它 的 表现 。 

7. Visualize classifier errors. 弹出 一 个 可 视 化 窗口 ， 把 分 类 结果 做 成 一 个 散 点 图 。 其 中 正确 
分 类 的 结果 用 叉 表 示 ， 分 错 的 结果 用 方 框 表 示 。 


8. Visualize tree or Visualize graph. 如 果 可 能 的 话 ， 把 分 类 模型 的 结构 用 图 形 来 表示 (例如 
决策 树 (decision tree) 和 贝 叶 斯 网 络 (Bayesian network) 模型 ) 。 图 形 可 视 化 选项 只 有 在 
贝 叶 斯 网 络 模型 建 好 之 后 才 会 出 现 。 在 浏览 决策 树 图 形 时 ， 可 以 在 空白 处 右 击 最 标 弹 出 一 个 
菜单 ， 也 可 以 拖 动 鼠 标 来 拖 动 决策 树 ， 还 可 以 在 节点 上 单 击 鼠 标 查看 它 对 应 的 训练 实例 。 Ctrl 
键 + 左 键 点 击 会 缩小 图 形 ，Shift 键 + 拖 电 会 得 到 一 个 方 框 并 放大 其 中 的 图 形 。 这 个 图 形 可 视 化 
工具 本 身 应 该 能 够 解释 它 的 作用 。 


9. Visualize margin curve. 创建 一 个 散 点 图 来 显示 预测 边际 值 。 这 个 边际 值 的 定 义 为 : 预测 
为 真实 值 的 概率 与 预测 为 真实 值 之 外 其 它 某 类 的 最 高 概率 之 差 。 例 如 ， 提升 式 (boosting) 
算法 可 以 通过 增加 训练 数据 上 的 边际 值 来 使 得 它 在 测试 数据 上 表现 得 更 好 。 


10. Visualize threshold curve. 生成 一 个 散 点 图 ， 以 演示 预测 时 改变 各 类 之 间 的 阀 值 后 取得 的 

平衡 。 例 如 说 ， 默 认 的 阀 值 是 0.5， 那 么 一 个 实例 要 预测 成 为 positive, BÆ positive 的 预 

测 概率 必须 大 于 0.5。 这 个 曲线 可 以 用 来 在 ROC 曲线 分 析 中 演示 准确 度 /反馈 率 之 间 的 平衡 
(正确 的 positive 率 对 错误 的 positive 率 ) ， 也 可 用 于 其 它 类 型 的 曲线 。 


11. Visualize cost curve. 生成 一 个 散 点 图 ， 如 [1] 中 所 描述 的 那样 ， 给 出 期 望 价 值 
(expected cost) 的 一 个 显 式 表达 。 


在 特定 的 情况 下 某 些 选项 不 适用 时 ， 它 们 会 变 成 灰色 。 


WEKA 3.5.5 用 户 指 南 





Clusters 
Choose [EM-1100-N -1 -M 1.0E-6-5 100 


Cluster mode 
© Use taining set 
© Supplied test set Sut... 
© Percantage split * 
'& Classes to clusters evaluation 





m" — 


[e] Store clusters for visualization 





Start || 


Result Est (right-click for options) 


Stop 





Discrete Escamator. Counts « 68 |Jocal = 
Attribute: windy 

Discrete Eszamatoc. Counts = 7 9 (|Total = 
Clustered Instances 


14 (1005) 
Log likelihood: -3.54934 
Class attribute: play 
Classes to Clusters: 
0 <-- assigned to cluster 
9 | yea 
5 | no 
Cluster 0 «-- yes 


Incorrectly clustereé instances 


16) 


16) 
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5.1 选择 聚 类 器 (Clusterer) 


现在 我 们 应 该 熟悉 选择 和 配置 对 象 的 过 程 了 。 点 击 列 在 窗口 顶部 的 Clusterer 栏 中 的 聚 类 算 
法 ， 将 弹出 一 个 用 来 选择 新 聚 类 算法 的 GenericObjectEditor 对 话 框 。 


5.2 聚 类 模式 


Cluster Mode 一 栏 用 来 决定 依据 什么 来 聚 类 以 及 如 何 评价 聚 类 的 结果 。 前 三 个 选项 和 分 类 的 
情形 是 一 样 的 : Use training set, Supplied test set 和 Percentage split ( 见 4.1 节 ) 一 一 区 
别 在 于 现在 的 数据 是 要 聚集 到 某 个 类 中 ， 而 不 是 预测 为 某 个 指定 的 类 别 。 第 四 个 模式 ， 
Classes to clusters evaluation， 是 要 比较 所 得 到 的 聚 类 与 在 数据 中 预先 给 出 的 类 别 吻合 得 怎 
样 。 和 Classify 面板 一 样 ， 下 方 的 下 拉 框 是 用 来 选择 作为 类 别 的 属性 的 。 


在 Cluster mode 之 外 ， 有 一 个 Store clusters for visualization 的 勾 选 框 ， 该 框 决定 了 在 训练 
完 算法 后 可 否 对 数据 进行 可 视 化 。 对 于 非常 大 的 数据 集 ， 内 存 可 能 成 为 撼 颈 时 ， 不 勾 选 这 一 
栏 应 该 会 有 所 帮助 。 


3 忽略 属性 


在 对 一 个 数据 集聚 类 时 ， 经 常 遇 到 某 些 属性 应 该 被 忽略 的 情况 。lgnore attributes 可 以 弹出 一 
个 小 窗口 ， 选择 哪些 是 需要 忽略 的 属性 。 点 击 窗口 中 单个 属性 将 使 它 高 亮 显示 ， 按 住 SHIFT 
键 可 以 连续 的 选择 一 串 属性 ， 按 住 CTRL 键 可 以 决定 各 个 属性 被 选 与 否 。 点 d Cancel 按钮 

取消 所 作 的 选择 。 点 击 Select 按钮 决定 接受 所 作 的 选择 。 下 一 次 聚 类 算法 运行 时 ， 被 选 的 属 


性 将 被 忽略 。 


5.4 学 习 聚 类 


Cluster 面板 就 像 Classify 面 板 那样 ， 有 一 个 Start/Stop 按钮 ， 一 个 结果 文本 的 区 域 和 一 个 结 
果 列 表 。 它 们 的 用 法 都 和 分 类 时 的 一 样 。 右 键 点 击 结果 列表 中 的 一 个 条 目 将 弹 出 一 个 相似 的 
菜单 ， 只 是 它 仅 显示 两 个 可 视 化 选项 : Visualize cluster assignments 和 Visualize tree。 后 者 
在 它 不 可 用 时 会 变 灰 。 


WEKA 3.5.5 用 户 指 南 





Associator 
Choose [annor 19 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S-1.0-0-1 


Caan] n | sop | Associator output 


Result of aet of Large irzenaeta L[1): 12 


of set of large itensets L[Z): 4? 
of set of large itensets L{3): 39 
of set of large iteuzets L[4): 6 


rules found: 


outlock-overcast 4 ==> pley-yes 4 cont: (1) 

. temperaturescool 4 «2» huxiditrencrnael 4 cont: (1) 
tumidity-normal windy-FALSE 4 -=> playeyea 4 cont: (1| 
outlock=sunny play=no 3 ==> hunidity=hagh 3 con£: (1) 

. outlockezunny huxidityehigh 3 <=> playeno 3 conf: (1) 
ouclock-rainy play-yes 3 -=> windy-FALSE 3 conf: |1) 

7. outlockersiny vindy-sFALSE J ==> playeyesz 3 cont: |1) 
Temperatare=cool plageyesa 3 ==> humidity-normal 3 cont: (1) 
outlock-sunny teaperature-hot 2 ==> humidity=bigh 2 conf: (1| 

. Temperatureshot playeno 2 «=> outlook«mmny 2 cont: |1) 











6 天 联 规则 


6.1 设 定 


这 个 面板 包含 了 学 习 关联 规则 的 方案 。 这 里 的 学 习 器 也 可 以 跟 其 它 面 板 的 聚 类 器 ， 逢 选 器 和 
分 类 器 一 样 选择 和 配置 。 


6.2 学 习 天 联 规则 


为 关联 规则 学 习 器 设置 好 合适 的 参数 后 ， 点 击 Start 按钮 。 完 成 后 右键 点 击 结果 列表 中 的 条 目 
可 以 查看 或 保存 结果 。 


WEKA 3.5.5 用 户 指 南 








Choose jestrrst- 1-N5 





Attribute Selection Mode 
@ Use full training set 
© Cross-validation Folds 
Seed 


— — 





Result list (right-click for options) 


Attribute selection output 


s=- Attribute Selection om all input data === 


Search Method: 
Best first. 
Start set: no attributes 
Search direction: forward 
Stale search after 5 node expansions 
Total number of subsets evaluated: 11 
Merit of best subset found: 9.247 


Attribute Subset Zvaluator |supervised, Clasa (noninal|: 5 play): 
CF3 Subset Evaluator 
Including locally predictive attributes 


Selected attributes: 1,3 : 2 
outlook 
hunidity 











35 


7.1 搜索 与 评估 


属性 选择 是 说 搜索 数据 集中 全 部 属性 的 所 有 可 能 组 合 ， 找 出 预测 效果 最 好 的 那 一 组 属性 。 为 
实现 这 一 目标 ， 必 须 设 定 两 个 东西 : 属性 评估 器 (evaluator) 和 搜索 策略 。 评 估 器 决定 了 怎 
样 给 一 组 属性 安排 一 个 表示 它们 好 坏 的 值 。 搜 索 策略 决定 了 要 怎样 进行 搜索 。 


T.2 选项 


Attribute Selection Mode 一 栏 有 两 个 选项 。 
1. Use full training set. 使 用 训练 数据 的 全 体 好 决定 一 组 属性 的 好 坏 。 
2. Cross-validation. 一 组 属性 的 好 坏 通过 一 个 交叉 验证 过 程 来 决定 。Fold 和 


Seed 分 别 给 出 了 交叉 验证 的 折 数 和 打 乱 数据 时 的 随机 种 子 。 和 Classify 部 分 〈4.1 节 ) 一 
样 ， 有 一 个 下 拉 框 来 指定 class 属性 。 


7.3 执行 选择 


点 击 Start 按钮 开始 执行 属性 选择 过 程 。 它 完成 后 ， 结 果 会 输出 到 结果 区 域 中 ， 同 时 结果 列表 
中 会 增加 一 个 条 目 。 在 结果 列表 上 右 击 ， 会 给 出 若干 选项 。 其 中 前 面 三 个 〈View in main 
window，View in separate window 和 Save result buffe) 和 分 类 面板 中 是 一 样 的 。 还 可 以 可 
视 化 精简 过 的 数据 集 (Visualize reduced data) ， 或 者 ， 如 果 使 用 过 主 成 分 分 析 那 样 的 属性 
— 则 能 可 视 化 变换 过 的 数据 集 (Visualize transformed data) 。 精 简 过 /变换 过 的 数 
据 能 过 Save reduced data... 或 Save transformed data... 选项 来 保存 。 


如 果 想 在 精 简 / 变换 训 练 集 的 同时 进行 测试 ， 而 又 不 使 用 在 分 类 器 面 板 中 的 

AttributeSelectedClassifier， 那 么 最 好 在 命令 行 或 者 SimpleCLI 中 使 用 批量 模式 ( -b ) 的 

AttributeSelection 筛选 器 (这 是 一 个 supervised attribute filter) 。 这 一 批量 模式 允许 指定 额 

入 和 输出 文件 对 (选项 -r 和 -S) ， 人 处 理 它们 的 筛选 器 的 设置 是 由 训练 文件 (h -i 
选项 给 出 ) 决定 的 。 下 面 是 Unix/Linux bash 中 的 一 个 例子 : 


java weka.filters.supervised.attribute.AttributeSelection \ 
-E "weka.attributeSelection.CfsSubsetEval " ^ 
-S "weka.attributeSelection.BestFirst -D 1 -N 5" V 
-b \ 
-i <inputi.arff> \ 
-o <outputi.arff> V 
-r <input2.arff> ^ 
-s <output2.arff> 


可 


e 每 一 样 末 尾 的 反 斜 线 告诉 bash 命令 还 没有 结束 。 使 用 SimpleCLI 时 必须 把 命令 SE 
一 行 而 不 能 使 用 反 斜 线 。 

e 这 里 假设 WEKA 244% CLASSPATH 中 了 ， 否 则 还 要 加 上 -classpath 选项 

e 整个 筛选 器 的 设置 会 在 日 志 中 输出 ， 就 像 运行 正规 的 属性 选择 时 的 设置 一 样 。 


WEKA 3.5.5 用 户 指 南 


8 可 视 化 





Program Applications Jools  Visualtzation Windows Heip 



































Selec Attributes. 


Iz] | SubSample %: |/100 

















WEKA 的 可 视 化 页 面 可 以 对 当前 的 关系 作 二 维 散 点 图 式 的 可 视 化 浏览 。 
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8.1 BU E ABE 


ibit f Visualize 面板 后 ， 会 为 所 有 的 属性 给 出 一 个 散 点 图 和 矩阵， 它们 会 根据 所 选 的 class 属 
性 来 着 色 。 在 这 里 可 以 改变 每 个 二 维 散 点 图 的 大 小 ， 改 变 各 点 的 大 小 ， 以 及 随机 地 拌 动 
(jitter) 数据 (使 得 被 隐藏 的 点 显示 出 来 ) 。 也 可 以 改变 用 来 着 色 的 属性 ， 可 以 只 选择 一 组 
属性 的 子 集 放 在 散 点 图 和 矩阵 中 ， 还 可 以 取出 数据 的 一 个 子 样本 。 注 意 这 些 改 变 只 BERET 
Update 了 按钮 之 后 才 会 生效 。 


2 选择 单独 的 二 维 散 后 图 


在 散 点 图 矩阵 的 一 个 元 素 上 点 击 后 ， 会 弹出 一 个 单独 的 窗口 对 所 选 的 散 点 图 进行 可 视 化。 
(前 面 我 们 描述 了 如 何在 单独 的 窗口 中 对 某 个 特定 的 结果 进行 可 视 化 一 一 例如 分 类 误 差 一 一 
这 里 用 了 相同 的 可 视 化 控件 。) 


数据 点 散布 在 窗口 的 主要 区 域 里 。 上 方 是 两 个 下 拉 框 选择 用 来 选择 打点 的 坐标 轴 。 左 边 是 用 
VE x 轴 的 属性 ; 右边 是 用 作 y 轴 的 属性 。 


在 x 轴 选 择 器 旁边 是 一 个 下 拉 框 用 来 选择 着 色 的 方案 。 它 可 以 根据 所 选 的 属性 给 点 着 色 。 在 
打点 区 域 的 下 方 ， 有 图 例 来 说 明 每 种 颜色 代表 的 是 什么 值 。 如 果 这 些 值 是 离散 的 ， 可 以 通过 
点 击 它们 所 弹出 的 新 窗口 来 修改 颜色 。 


打点 区 域 的 右边 有 一 些 水 平 横 条 。 每 一 条 代表 着 一 个 属性 ， 其 中 的 点 代表 了 属性 值 的 分 布 。 

这 些 点 随机 的 在 竖 直 方向 散 开 ， 使 得 点 的 密集 程度 能 被 看 出 来 。 在 这 些 横 条 上 点 击 可 以 改变 
主 图 所 用 的 坐标 轴 。 左 键 点 击 改变 x 轴 的 属性 ; 右键 点 击 改变 y 轴 的 。 横 条 旁边 的 x 和 YY fV 
表 了 当前 的 轴 用 的 那个 属性 〈 B 则 说 明 x 轴 和 y 轴 都 是 它 ) 。 属性 横 条 的 上 方 是 一 个 标 着 

Jitter 的 游标 。 它 能 随机 地 使 得 散 点 图 中 各 点 的 位 置 发 生 偏 移 ， 也 就 是 抖动 。 把 它 抑 动 到 右边 
可 以 增加 抖动 的 幅度 ， 这 对 识别 点 的 密集 程度 很 有 用 。 如 果 不 使 用 这 桩 的 抖动 ， 几 万 个 点 放 
在 一 起 和 单独 的 一 个 点 看 起 来 会 没有 区 别 。 


8.3 选择 实例 
很 多 时 候 利 用 可 视 化 工具 选 出 一 个 数据 的 子 集 是 有 帮助 的 。 (例如 在 classify 面板 的 
UserClassifier ( 自 定义 分 类 器 ) ， 可 以 通过 交互 式 的 选取 实例 来 构建 一 个 分 类 器 。 ) 


ft y 轴 选 择 按钮 的 下 方 是 一 个 下 拉 按 钮 ， 它 决定 选取 实例 的 方法 。 可 以 通过 以 下 四 种 方式 选 
取 数 据点 : 


1. Select Instance. 点 击 各 数据 点 会 打开 一 个 窗口 列 出 它 的 属性 值 ， 如 果 点 击 处 的 点 超过 一 
个 ， 则 更 多 组 的 属性 值 也 会 列 出 来 。 

2. Rectangle. 通过 拖 动 创建 一 个 矩形 ， 选 取 其 中 的 点 。 

3. Polygon. 创建 一 个 形式 自由 的 多 边 形 并 选取 其 中 的 点 。 左 键 点 击 添加 多 边 形 的 顶 点 ， 右 键 
点 击 完 成 顶点 设置 。 起 始点 和 最 终点 会 自动 连接 起 来 因此 多 边 形 总 是 闭合 


4. Polyline. 可 以 创建 一 条 折线 把 它 两 边 的 点 区 分 开 。 左 键 添加 折线 顶点 ， 右 键 结束 设置 。 折 
线 总 是 打开 的 (与 闭合 的 多 边 形 相反 ) 。 


使 用 Rectangle, Polygon 或 Polyline 选取 了 散 点 图 的 一 个 区 域 后 ， 该 区 域 会 变 MIRA. 
时 点 击 Submit 按钮 会 移 除 落 在 灰色 区 域 之 外 的 所 有 实例 。 点 击 Clear 按钮 会 清除 所 选区 域 而 


不 对 图 形 产生 任何 影响 。 


如 果 所 有 的 点 都 被 从 图 中 移 除 ， 则 Submit 按钮 会 变 成 Reset 按钮 。 这 个 按钮 能 使 前 面 所 做 
的 移 除 都 被 取消 ， 图 形 回 到 所 有 点 都 在 的 初始 状态 。 最 后 ， 点 击 Save 按钮 可 把 当前 能 看 到 
的 实例 保存 到 一 个 新 的 ARFF 文件 中 。 
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